iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 7
0
AI & Data

AWS 數據處理與分析實戰系列 第 7

Day 7 Glue Data Catelog 教學 - Part 4

  • 分享至 

  • xImage
  •  

完成前置步驟後,就可以開始創建 Crawler

  1. 創建 Crawler
    4-1 切換到 Crawlers 頁面,點選 Add crawlers

https://ithelp.ithome.com.tw/upload/images/20200921/20129236tRJsL2YmsB.png

4-2. 點開 Crawler name 下面的選單,點選 Custom classifiers 裡剛剛創建的 Classifier 右邊的 Add,將他加入右邊的 Selected classifiers,代表要使用這個 Classifier 爬取資料

https://ithelp.ithome.com.tw/upload/images/20200921/20129236IWUkiSsIHk.png

4-3. 選擇要使用的資料來源,這邊我們選擇 Data stores,也就是外部的資料源

https://ithelp.ithome.com.tw/upload/images/20200921/20129236BDE83PkBQf.png

4-4. 填入剛剛上傳 order.csv 的 S3 資料夾路徑,建議可以點選旁邊的資料夾圖示,用圖形化介面的方式選擇 S3 路徑,除了比較方便也可以避免使用到其他 Region 的 S3 造成資料無法訪問
另外要記得選擇資料所在的資料夾,不能直接選擇 CSV 檔,如果直接選擇 CSV 檔 Crawler 會無法正常爬取資料
最下面的 Exclude patterns 可以排除選定的路徑下所不要的資料或資料夾,例如 在您的資料中會有不需要爬取的資料夾 testdir,那我們可以在 Exclude patterns 中設定 testdir/**,這樣 Crawler 就不會去處理 testdir 中的資料

https://ithelp.ithome.com.tw/upload/images/20200921/2012923617oXSNNGcM.png

4-5. 這邊我們先選擇 No 繼續往下走,如果需要使用多個資料源可以選擇 Yes

https://ithelp.ithome.com.tw/upload/images/20200921/20129236lYNsHFlXiO.png


上一篇
Day 6 Glue Data Catalog 教學 - Part 3
下一篇
Day 8 Glue Data Catalog 教學 - Part 5
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言